PCA é um procedimento matemático que utiliza uma transformação ortogonal (ortogonalização de vetores) para converter um conjunto de observações de variáveis possivelmente correlacionadas num conjunto de valores de variáveis linearmente não correlacionadas chamadas de componentes principais.
Em outras palavras, PCA é uma tentativa de reduzir muitas dimensões a duas dimensões principais.
Nosso objetivo é aplicar PCA aos dados de vínculo de deputados atualmente em exercício com relação ao agronegócio.
As variáveis selecionadas foram: - total_declarado: Total declarado pelo deputado ao TSE nas eleições de 2018 em bens relacionados a Agricultura e Pecuária. Ex: imóveis rurais, fazendas, cabeças de gado, etc. - numero_empresas_associadas: Número de empresas nas quais o deputado é sócio. Dados obtidos da Receita Federal por meio do Brasil.IO em Agosto de 2019. - proporcao_doacoes_agro: razão entre o total doado por empresas relacionadas a Agricultura (pelo CNAE) e o total doado para o parlamentar durante as eleições de 2018.
A seguir iremos analisar essas variáveis e como se correlacionam.
Não existe uma correlação forte entre as variáveis, contudo pela distribuição das mesmas é possível perceber o quanto são Enviesadas a direita com uma cauda bem longa. Isso evidencia a presença de poucos valores bastante altos na escala de cada variável, enquanto que a maior parte dos dados se concentra numa faixa menor em relação a esses valores mais raros.
Para remediar esse problema podemos usar a escala de log nos dados que irá considerar a magnitude de grandeza dos valores e não os valores absolutos em si.
É possível perceber para a variável do total declarado em bens rurais que houve um mudança na distribuição. Como esperado a escala de log espalha as observações de forma que é possível observar os pontos de forma mais clara e com o objetivo de entender as grandes diferenças entre as variáveis mas também as pequenas diferenças.
Com o objetivo de normalizar as variáveis de forma que cada uma tenha o mesmo “poder” de influência no cálculo das dimensões via PCA todas elas foram colocadas numa mesma escala.
Aplicamos o PCA aos dados e obtivemos três dimensões que são resultado da combinação linear das variáveis escolhidas.
Cada dimensão obtida representa uma porcentagem da variância nos dados, em outras palavras, cada dimensão consegue explicar parte dos dados. Como estamos interessados em reduzir as dimensões iremos considerar apenas as duas primeiras dimensões que explicam ~45% e ~34%, respectivamente.
A seguir apresentamos como os deputados estão distribuídos considerando essas duas dimensões que melhor explicam os dados.
Deputados que estão próximos no gráfico são parecidos em relação as variáveis iniciais escolhidas. A cor do deputado indica a qualidade de representação das dimensões com relação as variáveis originais.
As variáveis originais tiveram suas dimensões reduzidas a duas, no entanto podemos observar como essas variáveis influenciam as dimensões obtidas via PCA.
Os vetores que representam as variáveis de proporção de doações do agro e o número de empresas associadas possuem direções parecidas, o que corrobora visualizações anteriores que mostraram que essas variáveis eram as mais correlacionadas.
A direção dos vetores indica o sentido de crescimento das variáveis quando explicadas pelas dimensões obtidas via PCA.
Abaixo podemos identificar quais os deputados representados na visualização anterior.